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dü 要 : 针对 FSDP 聚 类 算法 在 计算 数据 对 象 的 局 部 密度 与 最 小 距离 时 ， 由 于 需要 遍历 整个 数据 集 而 导致 算法 的 整体 
时 间 复 杂 度 较 高 的 问题 ， 提 出 了 一 种 基于 Spark 的 并 行 FSDP 聚 类 算法 SFSDP。 首 先 ， 算 法 通过 空间 网 格 划 分 将 待 聚 
类 数据 集 划 分 成 多 个 数据 量 相 对 均衡 的 数据 分 区 ; 然后 ， 利 用 改进 的 FSDP 聚 类 算法 并 行 地 对 各 个 分 区 内 的 数据 执行 
聚 类 分 析 ; 最 后 ， 通 过 将 分 区 间 的 局 部 禾 集 合并 ， 生 成 全 局 禾 集 。 实 验 结果 表明 ，SFSDP 与 FSDP 算法 相 比 能 够 有 效 
地 进行 大 规模 数据 集 的 聚 类 分 析 工 作 ， 并 且 算 法 在 准确 性 和 扩展 性 方面 都 有 很 好 的 表现 。 
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Spark-based parallel density clustering algorithm 
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Abstract: In view ofthe problem that the overall time complexity of the FSDP clustering algorithm is high because the algorithm 
needs to traverse the entire data set when calculating the local density and minimum distance of data objects, this paper presents 
a Spark-based parallel FSDP clustering algorithm called SFSDP. First, the algorithm divides the dataset into multiple data 
partitions with relatively equal size by spatial meshing; then, the clustering analysis is performed on the data in each partition in 
parallel using the improved FSDP clustering algorithm; Global clusters are generated by grouping together local clusters between 


partitions. Experimental results show that SFSDP algorithm can effectively perform large-scale dataset clustering analysis 


compared with FSDP algorithm, and the algorithm has a good performance in terms of accuracy and scalability. 
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泛 应 用 于 多 个 领域 中 ， 包 括 网 页 搜索 、 决 策 分 析 、 图 像 模式 识 

别 、 文 档 摘要 自动 生成 、 自 然 语言 处 理 、 商 务 智能 、 生 物 学 与 
随 着 互联 网 在 全 球 范围 内 的 快速 普及 ， 人 们 每 天 都 会 面 对 安全 等 。 
来 自 社 会 、 商 业 、 医 学 、 工 程 和 科学 以 及 人 们 日 常生 活 各 个 方 FSDP (clustering by fast search and find of density peaks) 作 
面 的 海量 数据 。 数 据 的 爆炸 式 增长 、 广 泛 可 用 和 巨大 规模 把 本 为 一 种 新 的 基于 密度 的 聚 类 算法 内 ， 该 算法 将 具有 较 大 局 部 密 
文 带 入 了 一 个 真正 的 数据 时 代 。 而 如 何 快速 方便 地 从 这 些 杂 乱 度 且 互 相距 离 较 远 的 数据 对 象 作为 聚 类 中 心 ， 然 后 将 每 一 个 非 
无 章 的 大 规模 数据 中 挖掘 出 有 用 的 信息 ， 并 将 这 些 非 结构 化 的 中 心 数据 对 象 沿 着 密度 递增 的 最 近邻 方向 迭代 划分 给 相应 的 聚 
数据 转变 成 知识 ， 这 种 需求 催生 了 数据 挖掘 的 诞生 趾 。 在 数据 类 中 心 ， 实 现 聚 类 划分 。 该 算法 被 提出 后 得 到 了 大 量 研究 学 者 
挖掘 领域 中 ， 聚 类 分 析 作 为 一 种 常用 的 数据 分 析 方法 ， 可 以 在 的 关注 与 研究 68。 虽然 FSDP 算法 具有 算法 原理 简单 、 可 以 发 
对 数据 对 象 集 的 相关 信息 一 无 所 知 的 情况 下 ， 将 数据 对 象 集合 现任 意 形状 、 大 小 的 聚 簇 等 优点 ， 但 该 算法 在 面 对 数 据 量 比较 
划分 成 多 个 徐 ， 使 得 同一 个 簇 中 的 对 象 彼此 相似 ， 但 与 其 他 簇 大 或 数据 维度 比较 高 的 聚 类 任务 时 ， 由 于 FSDP 算法 在 计算 数 
中 的 对 象 不 相似 证。 迄今 为 止 ， 国 内 外 众多 研究 学 者 针对 各 类 据 集中 数据 对 象 的 局 部 密度 和 最 小 距离 的 时 间 复 杂 度 较 高 ， 聚 
应 用 场景 已 经 提出 了 各 式 各 样 的 聚 类 算法 钻 ， 使 得 聚 类 分 析 的 类 的 效率 相对 较 低 ， 所 以 算法 不 能 很 好 地 适用 于 大 规模 数据 的 
研究 得 到 了 很 大 的 发 展 。 在 现实 生活 中 ， 聚 类 分 析 早 已 经 被 ) RK. 
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针对 FSDP 聚 类 算法 在 进行 海量 、 高 维度 数据 聚 类 时 存在 
效率 低 、 伸 缩 性 差 的 问题 ， 本 文 提 出 了 一 种 基于 Spark 的 并 行 
FSDP 聚 类 算法 SFSDP。 该 算法 首先 通过 将 海量 数据 集 在 空间 
中 划分 成 多 个 数据 量 均衡 的 数据 分 区 ， 然 后 将 划分 好 的 数据 分 
区 分 发 到 集群 中 的 计算 节点 上 进行 单独 聚 类 ， 最 后 将 局 部 聚 类 
的 结果 合并 生成 全 局 聚 簇 集 。 实 验 结果 表明 ，SFSDP 与 FSDP 
算法 相 比 ,算法 在 保证 准确 率 的 前 提 下 ,具备 较 强 的 可 扩展 性 
能 够 有 效 处 理 大 规模 数据 集 的 聚 类 分 析 工 作 。 


1 ”相关 工作 


11 FSDP 聚 类 算法 

FSDP 算法 认为 聚 类 的 中 心 应 该 同时 具备 以 下 两 个 特点 : 
a) 聚 类 中 心 相对 于 包围 它 的 数据 对 象 密度 要 大 , 即 聚 类 中 心 被 
局 部 密度 较 低 的 邻居 包围 ; b) 聚 类 中 心 与 任何 具有 更 高 局 部 密 
度 对 象 之 间 的 距离 较 远 。 对 于 数据 集中 每 个 数据 点 ， 需 要 计算 
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2 问题 描述 和 相关 定义 


问题 描述 : 

给 定 一 组 待 聚 类 数据 
数据 集 D 的 数据 空间 Cdat 
数据 对 象 ， 为 数据 对 象 Pp 


SFSDP 聚 类 算法 得 到 一 组 甘 


昨 ， 其 所 处 的 d 维 空间 区 域 DS 称 为 
aspace)。 其 中 p; 表示 d 维 空间 中 的 
;在 第 k 维 数 轴 上 的 投影 。 可 通过 


RIRA 


TL 
o 


SFSDP 聚 类 算法 的 实现 基于 如 下 相关 定义 : 


定义 1 空间 网 格 、 网 


格 单元 。 将 数据 空间 DS 划分 为 多 个 


互 不 重合 的 区 域 ， 由 这 些 区 域 构成 的 网 格 划 分 称 为 空间 网 格 ， 


记 为 G。 其 中 每 个 子 区 域 为 空间 网 格 的 一 个 网 格 单元 , 记 为 g。 


图 1 描述 了 基于 二 维 数据 空间 DS 的 划分 。 其 中 ， 实 线 外 


边框 围绕 的 大 和 矩形 代表 数据 空间 DS; 实 线 内 边框 围绕 的 小 矩 
形 分 别 表 示 由 DS 划分 的 gl. g2. g3. g4 网 格 单元 。 


定义 2 相 邻 网 格 单元 。 如 果 两 个 网 格 单元 gl 和 g2 ME 


数据 点 的 局 部 密度 P 和 距离 具有 更 高 局 部 密度 数据 点 的 最 小 
距离 5 (下文 简称 为 最 小 距离 5; ) 两 个 变量 。 其 中 局 部 密度 p 
定义 如 式 d) 所 示 。 


ns zet /4.)* 1) 


J 


其 中 : dy 表示 数据 点 i 与 j 间 的 距离 ，d。 表示 截断 距离 。 


示 的 空间 区 域 在 第 i 维 是 相 邻 区 域 ， 而 在 其 他 d-1 维 是 同一 区 


域 ， 则 gl 和 g2 称 为 相 邻 网 格 单元 。 


定义 3 内 部 点 。 网 格 单元 区 域内 的 数据 点 称 为 内 部 点 。 


定义 4 临界 点 、 临 界 区 域 。 在 网 格 单元 区 域内 且 与 网 格 
单元 任意 边界 之 间 的 距离 小 于 密度 截 距 o ( 见 定义 6) 的 点 称 


最 小 距离 5 表示 的 是 数据 点 i 与 任何 其 他 具有 更 高 局 部 密 
度数 据点 之 间 的 最 小 距离 ， 其 定义 如 式 (OD 所 示 。 


Q) 


ux (d; ) , Pi = max(p) 


通过 计算 数据 集中 的 所 有 数据 点 的 局 部 密度 p; 和 最 小 距 


区 域 。 


改 临 界 点 ， 临 界 点 也 属于 内 部 点 。 涵 盖 临 界 点 的 区 域 称 为 临界 


定义 5 扩展 点 、 扩 展区 域 。 在 网 格 单元 区 域 以 外 且 与 网 


格 单元 任意 边界 之 间 的 距离 小 于 密度 截 距 a 的 点 称 为 扩展 点 。 
涵盖 扩展 点 的 区 域 称 为 扩展 区 域 。 


离 9 ， 可 得 到 数据 集 对 应 的 (2,G) 分 布 。 然 后 将 该 分 布 在 平面 
E 标 中 男 出 ， 即 可 得 到 数据 集 对 应 的 决策 图 。 算 法 只 需 在 图 中 
选取 同时 具备 较 大 P 和 6 的 数据 点 作为 聚 类 中 心 ， 然 后 将 剩余 
的 数据 点 归 类 到 它 邻 近 有 更 高 局 部 密度 的 数据 点 所 属 的 簇 即 可 
完成 数据 集聚 类 。 
1.2 Spark 分 布 式 框架 
Spark[?40 是 由 UC Berkeley AMPLab 研发 的 一 个 快速 而 通 
的 并 行 计算 框架 。 作 为 大 数据 时 代 最 为 主要 的 几 个 数据 计算 
分 析 框 架 之 一 ，Spark 为 大 数据 分 析 应 用 提供 了 一 个 统一 的 数 
据 处 理 平台 ， 在 这 个 平台 下 包含 多 个 紧密 集成 的 组 件 。 其 主要 
包含 内 核 (spark core) 部 分 和 多 个 官方 子 模块 (Spark SQL、 Spark 
streaming、 MLlib、GraphX) 
Spark 具有 高 扩展 和 高 容错 等 优点 ， 并 已 经 被 广泛 用 于 各 
种 生成 环境 中 。 与 Hadoop 一 样 ，Spark 也 是 为 集群 计算 而 设计 
的 。 但 不 同 的 是 , Spark 可 以 把 执行 的 中 间 结 果 缓 存 到 内 存 中 ， 
这 种 方式 可 以 大 大 提高 算法 的 执行 效率 , 因此 , Spark 能 够 更 好 
地 适用 于 需要 多 次 进行 迭代 的 算法 。 并 且 与 其 他 类 似 并 行 计算 
框架 相 比 ，Spark 不 仅 在 运行 速度 和 通用 性 能 方面 有 很 大 的 优 
势 ， 而 且 在 可 扩展 性 和 容错 性 方面 也 有 较 好 的 表现 。 


[之 


M 


定义 6 改进 的 pi; 计 算 公 式 、 密 度 截 距 0 、 密 度 截 距 邻 域 )。 
高 斯 函数 的 数学 性 质 上 0 可知, 在 计算 数据 对 象 的 Pp; 时 ,对 于 
给 定 的 截断 距离 4.， 当 一 个 样本 点 距离 指定 数据 点 的 距离 大 于 
3a, / A2. 时, 则 该 样本 点 对 指定 数据 点 局 部 密度 的 计算 影响 非常 


小 。 这 也 就 是 说 ， 每 个 数据 点 的 局 部 密度 主要 取决 于 与 其 距离 


INF 3d, / N2 的 近邻 数据 点 


。 因 此 ， 在 计算 数据 点 局 部 密度 时 ， 


可 以 只 通过 计算 距离 数据 点 3d./V2 范围 内 的 邻近 点 来 近似 表 
示 该 数据 点 的 局 部 密度 。 改 进 后 数据 点 的 局 部 密度 计算 公式 如 


式 (3) 所 示 。 


j= 也 nU (3) 


其 中 : 0-34,/42 , o 称 为 密度 截 距 。 距离 数据 对 象 小 于 o 的 范 


a 


称 为 数据 对 象 的 密度 截 距 邻 域 。 


数据 空间 网 格 划分 如 图 1 所 示 。 由 图 1 可 知 ， 对 数据 空间 


进行 划分 后 ， 数 据 对 象 局 部 密度 的 计算 只 需要 考虑 数据 对 象 所 
在 网 格 单元 内 以 及 其 相 邻 网 格 单元 内 的 数据 对 象 ， 有 效 避 免 了 


计算 局 部 密度 时 需要 遍历 整个 数据 集 的 问题 ， 大 大 降低 了 计算 


节点 的 工作 负荷 。 


3  SFSDP 算法 设计 与 实现 


FSDP 算法 在 进行 数 扩 


居 对 象 局 部 密度 和 最 小 距离 计算 时 需 
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要 遍历 数据 集中 的 所 有 数据 对 象 ， 所 以 在 进行 大 规模 数据 聚 类  € P 和 数据 对 象 p 包含 在 网 格 单元 g 中 。 

时 ， 如 果 只 采用 单 节点 处 理 ， 则 节点 的 计算 量 会 很 大 ， 导 致 算 定义 7 网 格 单元 的 扩展 6 空间 。 令 g 表示 由 数据 空间 DS 

法 的 效率 很 低 , 本 文 提出 的 SFSDP 聚 类 算法 通过 将 大 规模 数据 ”通过 空间 网 格 划 分 得 到 的 一 个 网 格 单元 ， 将 g 各 个 维度 的 边界 

的 聚 类 任务 分 解 为 若干 可 通过 单 节点 处 理 的 小 规模 任务 来 完成 ” 在 空间 中 向 外 扩充 密度 截 距 o 大 小 的 距离 得 到 的 空间 区 域 称 为 

聚 类 ， 大 大 提高 了 数据 集聚 类 的 速度 。SFSDP 算法 的 执行 可 分 。 网 格 单元 g 对 应 的 扩展 空间 ， 记 为 gto 

为 三 个 阶段 : 由 定义 5 和 7 可 以 看 出 ， 网 格 单元 的 扩展 6 空间 即 为 网 格 
阶段 1 数据 分 区 。 根 据 数据 集 D 在 数据 空间 DS 中 的 分 。 单元 包含 的 区 域 加 上 扩展 区 域 。 在 图 1 中 ， 由 虚线 围 成 的 小 矩 

布 情况 , 通过 空间 划分 将 数据 集 D 划分 成 若干 规模 较 小 且 包 含 。” 形 分 别 对 应 网 格 单元 的 扩充 o 空 间 。 


数据 量 大 致 均匀 的 数据 分 区 。 


改进 的 FSDP 聚 类 算法 ， 得 到 局 部 聚 类 结果 。 
阶段 3 局 部 复合 
E pi A e BAS e 


g2 的 临界 点 
gl 的 扩展 点 


g2 的 扩展 点 


图 1 数据 空间 网 格 划 分 


3.1 数据 分 区 


为 了 避免 数据 对 象 局 部 密度 的 计算 需要 遍历 整个 数据 集 ， 
进 后 数据 对 象 局 


定义 6 给 出 了 一 种 新 的 局 部 密度 计算 方法 。 
部 密度 的 计算 只 与 数据 空间 中 以 该 数据 对 象 为 中 心 、 
为 半径 范围 内 的 数据 对 象 有 关 ， 
象 无 关 。 因 此 , SFSDP 算法 可 通过 将 数据 空间 划分 成 


阶段 2 ”局 部 聚 类 。 各 个 计算 节点 在 本 地 分 区 数据 上 执行 


。 通 过 对 局 部 聚 类 结果 合并 与 调整 ， 


jg2 的 内 部 点 


密度 截 距 


而 与 数据 空间 中 其 他 的 数据 对 


空间 网 格 ， 


这 样 在 计算 数据 对 象 局 部 密度 时 ， 只 需 考虑 所 处 网 格 单元 内 和 
相 邻 网 格 单元 内 的 数据 对 象 ， 大 大 降低 了 算法 的 时 间 复杂 度 。 


在 进行 空间 网 格 划 分 时 ， 为 了 使 得 各 个 计算 节点 间 负 载 均 衡 ， 


上 数据 


防 


个 包含 数据 对 象 数目 相对 均衡 的 网 格 单元 。 
在 对 数据 集 分 区 时 , 对 于 划分 完成 后 网 格 单元 内 
于 其 密度 截 距 邻 域 范围 


项 斜 现象 的 发 生 ，SFSDP 算法 采用 基于 网 格 单元 内 数 
据 对 象 数目 的 划分 策略 ， 利 用 KD-Tree02] 将 数据 空间 划分 成 多 


的 临界 点 ， 


内 的 一 部 分 邻近 数据 点 与 其 不 在 同一 


个 网 格 单元 内 ， 为 了 计算 这 些 临界 点 的 局 部 密度 ， 在 进行 数据 
分 区 时 ， 需 要 将 一 些 数据 对 象 同时 分 配给 多 个 不 同 的 分 区 。 从 


图 1 可 以 看 出 ， 如 果 网 格 单元 g1 对 应 的 分 区 了 仅 包 
数据 对 


1 
象 , 由 于 临界 点 q 的 密度 截 距 邻 域内 包含 了 网 格 单元 g2 


内 的 


含 g 


中 的 数据 对 象 ， 导 致 d 的 局 部 密度 计算 出 错 ， 所 以 对 于 与 网 格 


单元 gl 相对 应 的 分 区 P， 需 要 将 相 邻 网 格 单元 g2 内 的 一 些 数 


据 对 象 也 包含 在 分 区 了 P 中 。 为 了 能 更 好 地 给 出 数据 分 区 的 完整 


定义 ， 使 用 peP 和 p<g 来 分 别 表示 数据 对 象 P 属 了 


F 数据 分 区 


定义 8 


数据 分 


X. $ gtoXl 


网 格 划 分 得 到 的 网 格 单元 g 的 扩展 6 空间 ， 


数据 空间 DS 通过 空间 
则 


P={p|peDAp<g8+o} 称 为 网 格 单元 g 对 应 的 数据 分 区 ; 相 


反 ，g RH 


EA) 
定义 8 对 


X. P oj 


[应 的 网 格 单元 。 
| 数据 分 区 的 定义 得 知 ， 一 个 数据 分 区 包含 了 数 


据 集 中 分 布 在 对 应 网 格 单 才 
此 时 ， 对 于 分 区 内 的 数据 对 


格 单元 内 ， 则 可 以 通过 定义 6 给 出 
局 部 密度 估计 。 
分 区 算法 实现 : 
输入 :DD JIŽ 


数 ; 


A 
输出 : 


2， 将 数据 空间 DS 划分 成 若 


单元 。 


Partitions X% 
1， 通 过 数据 集 


扩展 G 空 间 区 域内 的 所 有 数据 对 象 。 
Rp WR p 包含 在 分 区 对 应 的 网 


的 公式 计算 出 数据 对 象 p 的 


昌 集 ; max 为 网 格 单元 内 最 大 数据 对 象 数 目 。 
虽 集 划分 后 得 到 的 数据 分 区 。 


D 得 到 数据 空间 DS。 


F 个 大 小 相等 且 互 不 重 全 的 网 格 


3， 将 数据 对 象 映射 到 网 格 单元 ， 并 计算 每 个 网 格 单元 内 数据 


DL me cge ge 


HE 


对 象 的 个 数 。 
初始 化 一 个 待 分 甸 


ERMENI HA 
子 空间 区 域 S1、S2， 


计算 数据 空间 区 域 $ 内 
max， 则 将 S 添加 到 集合 G 中 ; 
据 对 象 在 d 维 空间 中 各 个 维度 的 方差， 选取 方差 最 大 


空间 队列 Queue, 


将 DS 添加 到 队列 中 。 


初始 化 一 个 空 的 网 格 单元 集合 G。 
弹出 待 分 割 空间 队列 中 的 队 首 空间 区 域 $。 


包含 的 数据 对 象 数 


n。 如 果 小 于 
否则 ， 求 得 空间 区 域 S 内 


EHE, 34 S 划分 成 两 个 包含 数据 量 均衡 的 
将 Sl1 S2 添加 到 待 分割 空 间 队 列 


8， 如 果 队 列 Queue 为 空 ， 则 将 G 作为 数据 集 D 的 空间 网 格 划 


据 划分 好 的 空间 网 格 G， 


; 否则 跳 转 到 步 又 6。 


定义 8 得 到 数据 集 的 数据 分 


3.2 分 区 内 局 部 聚 类 


在 数 ] 


以 


算法 进行 1 


ES 
最 小 距离 。 


居 集 上 完成 数 ] 
行 在 对 应 的 数据 
处 修改 : 
a) FSDP 在 计算 数据 点 
个 数据 集 ， 为 了 可 以 在 分 区 内 独立 计算 这 
JAR (D 和 (4) 在 分 


居 分 区 工作 后 ， 为 了 使 各 个 计算 节点 可 


分 区 上 执行 局 


部 聚 类 ， 需 要 对 原始 FSDP 


局 部 密度 和 最 小 距离 时 需要 遍历 整 


个 结果 ， 


这 里 分 别 


区 了 内 计算 数据 对 象 的 局 部 密度 和 


201810.00062v1 


chinaXiv 


hinaXiv& fEBHT 


C 
Senes 孙 伟 胸 ， 等 : 基于 Spark 并 行 的 窗 XOU 


定理 1 合并 点 定理 。 如 果 存 在 数据 点 peEC1nC2, 且 p 
在 局 部 徐 Cl 和 C2 中 都 是 核心 成 员 , 则 需要 合并 Cl 和 C2 HB 


T 


min (d; J.i21 
à= u ML (4) — 局 部 入 CI 中 的 点 和 局 部 秘 C2 中 的 点 应 该 归属 于 同一 个 全 局 
TE). HU p MOSS Cl 和 C2 的 合并 点 。 
b) FSDP 算法 需要 人 为 参与 聚 类 中 心 的 选取 ， dM 证 明 核心 成 员 对 应 簇 的 中 心 ， 由 高 密度 的 数据 对 象 组 成 。 
法 的 人 为 干预 ， 本 文采 用 式 (5) 作为 辅助 函数 。 算 法 通过 为 局 上 述 定 理 通 过 上 聚 簇 核心 成 员 的 定义 可 以 很 容易 得 出 。 
部 聚 类 设 定 一 个 聚 类 中 心 阐 值 ， 然 后 将 分 区 内 各 个 数据 对 象 的 定理 2 所 有 的 合并 点 一 定 是 分 区 内 的 临界 点 或 扩展 点 。 
Yy 取 值 与 设 定 的 闵 值 作 比 较 ， 将 y 取 值 大 于 设 定 阔 值 的 数据 对 象 如 果 数 据点 p 是 局 部 簇 Cl 和 C2 的 一 个 合并 点 ， 那 么 数据 点 p 
作为 聚 类 中 心 的 候选 对 象 。 一 定 是 分 区 内 的 临界 点 或 扩展 点 。 
n 7 pé GT L2, n) (5) 证 明 ”因为 由 合并 点 pEClmCc2 可 以 得 出 pEP1mP2， 所 
局 部 聚 类 算法 实现 : 以 点 p 位 于 Pl 和 了 2 的 重合 区 域 。 由 临界 点 和 扩展 点 的 定义 ， 
输入 : P 为 数据 分 区 ; de 为 截断 距离 ，threshold 为 聚 类 中 定理 2 得 证 。 
ORE. 基于 以 上 定理 ， 在 确定 局 部 聚 类 的 合并 点 时 ， 只 需要 获取 
输出 : 数据 分 区 的 局 部 聚 类 结果 。 分 区 内 所 有 的 临界 点 和 扩展 点 ,并 判断 其 是 否 满足 定理 1 即 可 。 
1. for each point inP do 为 了 获取 到 分 区 内 所 有 的 临界 点 和 扩展 点 ， 由 图 1 可 以 看 出 ， 
2 利用 式 G) 计算 数据 点 的 局 部 密度 估计 值 Pp; 一 个 分 区 的 临界 点 同时 也 是 相 邻 分 区 的 扩展 点 ， 且 只 有 扩展 点 
3. end for 和 临界 点 才 会 出 现在 多 个 分 区 内 ， 所 以 可 以 通过 对 局 部 聚 类 结 
4. for each point in P do 果 按 照 数据 对 象 进 行 分 组 ， 然 后 通过 过 滤 组 内 成 员 个 数 大 于 1 
5 利用 式 (4) 计算 数据 点 的 最 小 距离 和 最 近邻 点 的 数据 点 作为 合并 点 的 候选 对 象 ， 最 后 通过 观察 候选 对 象 是 否 
6. end for 满足 定理 1 来 确定 所 有 的 合并 点 。 
7. for each point in P do 在 找到 所 有 的 合并 点 后 ， 根 据 合并 点 在 不 同 分 区 中 所 属 的 
8. ”利用 式 C50 计算 分 区 内 数据 对 象 的 力 取 值 局 部 艇 可 以 得 到 不 同 分 区 间 局 部 簇 的 关联 关系 。 为 了 可 以 方便 
9. end for 地 给 局 部 簇 分 配 全 局 簇 标 识 ， 利 用 图 论 知识 将 局 部 簇 与 其 之 间 
10. for each point in P do 的 关联 关系 分 别 表示 成 图 的 顶点 和 边 ， 最 终 构建 出 一 张 局 部 簇 


11. 比较 数据 点 yi 的 取 值 与 threshold 的 大 小 关系 ， 如 果 ”关联 图 ， 属 于 同一 个 全 局 簇 的 局 部 艇 集合 对 应 了 图 中 的 一 个 连 
Xi >threshold， 则 该 数据 点 选 为 聚 类 中 心 ， 并 给 定 所 属 艇 通 子 图 。 通 过 为 图 中 各 个 连通 子 图 的 顶点 所 代表 的 局 部 簇生 成 


12. for each point in P do AP 4 d ERO VAR RT n FJ D f zs EE Je o s DH] BBC o 

13. if point not centerpoint then e BUR FREK: 

14. 将 数据 点 划分 给 最 近 高 密度 邻 点 所 属 的 簇 输入 :D 为 局 部 聚 类 结果 ,数据 格式 为 Key-Value: (p; (pId， 

15. endif clusterId，flag))。 其 中 p 表示 数据 对 象 本 身 ; pId 表示 数据 分 区 

16. end for Id; clusterId 表示 分 区 内 局 部 复 Id; flag 表示 数据 对 象 是 核心 成 

17. 计算 每 个 聚 艇 的 边界 密度 员 还 是 光泽 成 员 。 

18. for each point in P 输出 : 全 局 聚 类 结果 。 

19. ”如 果 数 据 对 象 的 局 部 密度 大 于 所 属 簇 边界 密度 ， 则 标记 1， 对 数据 集 D 按照 数据 对 象 p 进行 分 组 ， 通 过 过 滤 组 内 成 员 
该 数据 对 象 为 核心 点 ， 和 否则 为 光 晕 点 大 于 1 的 数据 对 象 得 到 合并 点 候选 对 象 集合 CS. 

20. 输出 聚 类 结果 2. 遍历 合并 点 候选 对 象 集合 CS， 通 过 观察 候选 对 象 在 各 分 区 

3.3 EG 局 部 簇 中 的 标记 (flag， 是 否 为 核心 成 员 ) 和 定理 1 判断 候 
为 了 使 得 SFSDP 聚 类 算法 在 局 部 聚 类 阶段 各 个 计算 节点 选 对 象 是 否 为 合并 点 ， 得 到 合并 点 集合 MS 。 

可 以 独立 在 对 应 的 数据 分 区 上 进行 聚 类 ， 数 据 分 区 阶段 将 数据 3. 根据 合并 点 所 属 的 局 部 簇 类, 构建 局 部 簇 关 联 关系 集合 LS。 

集 划分 成 了 若干 组 互相 重 革 的 数据 分 区 。 这 些 相 互 重 膨 的 分 区 集合 元 素 格式 为 (pl.clusterId，p2.clusterId)， 代 表 p 同时 属 

内 包含 了 一 些 公共 的 数据 对 象 。 在 局 部 聚 类 合并 阶段 ， 算 法 可 于 分 区 pl 中 标志 为 clusterld 的 局 部 艇 和 分 区 p2 中 标志 为 

以 通过 评估 这 些 公共 数据 对 象 ( 即 临界 点 和 扩展 点 〉 的 特征 ， clusterId 的 局 部 簇 。 

找 出 所 有 需要 合并 的 局 部 艇 。 4. 初始 化 局 部 簇 关 联 图 G, 将 所 有 局 部 徐 作 为 项 点 添加 到 图 G 
为 了 描述 的 方便 ， 假设 Cl 和 C2 4 AERIS EE X 中 ， 同 时 为 每 个 顶点 生成 一 条 指向 自身 的 边 。 

Pl 和 了 2 通过 局 部 聚 类 得 到 的 一 个 局 部 簇 ( 即 ClcP1,C2cP2， 5. 遍历 集合 LS， 对 于 集合 中 的 每 个 元 素 (pl.clusterld， 


HPInP2z90.) p2.clusterId)， 如 果 在 关联 图 G 中 不 存在 相对 应 的 边 ， 那 么 
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录用 稿 


将 (pl.clusterId,p2.clusterId) 作 为 图 


G 的 一 条 边 加 入 到 图 中 。 


最 终 ， 所 有 属于 同一 全 局 簇 的 局 部 簇 构成 了 图 G 的 一 个 连 
通 子 图 。 

6. 为 图 G 中 的 每 个 连通 子 图 g ALEX RR. Eg 
所 有 顶点 代表 的 局 部 簇 标志 都 映射 到 这 个 全 局 聚 簇 标志 ， 
从 而 建立 局 部 簇 标 识 到 全 局 簇 标识 的 映射 。 


7， 利 | 
簇 中 数据 对 象 的 簇 标志 。 


得 到 的 局 部 复 标 志 到 全 局 复 标 志 的 映射 更 新 每 个 局 部 


3.4 算法 时 间 和 空间 复杂 度 分 析 


1) 时 间 复 杂 度 分 析 
假设 待 聚 类 数据 集 包 含 n 


消耗 主要 包含 两 个 阶段 :a 


时 


本 


b) 计算 数据 对 象 的 最 小 距离 阶段 。 


段 的 计算 都 需要 两 层 循环 遍历 
EH O(n?) 。 而 SFSDP RÆ 


并 阶段 。 假 设 集群 中 一 共有 M 


Bt: a) 数据 分 区 阶段 ; b) 分 区 内 局 部 聚 类 阶段 ;c) 


个 数据 对 象 ，FSDP 聚 类 算法 的 
) 计 算数 据 对 象 的 局 部 密度 阶段 ; 
于 FSDP 算法 在 这 两 个 阶 
数据 集 ， 所 以 算法 的 整体 时 间 复 
算法 的 时 间 消 耗 主 要 包含 三 个 阶 
局 部 复合 


个 计算 节点 并 行 处 理 , 在 数据 分 


区 阶段 ， 需 要 对 数据 集 进行 多 
杂 度 为 O(n/m) 。 在 局 音 
据 对 象 的 数量 最 多 不 超过 


局 部 聚 类 阶 


次 遍历 来 确定 数据 划分 ， 时 间 复 
Bt. 假设 指定 每 个 网 格 单元 内 数 
则 数据 集 在 数据 分 区 阶段 可 大 致 


划分 成 W/m 个 数据 分 区 ， 


分 区 内 数据 对 象 的 数量 大 致 为 m 


(因为 分 区 内 包含 了 网 格 单元 


的 扩展 点 ， 所 以 实际 分 区 内 的 数 


据 对 象 数 量 可 能 会 大 于 m。 这 


对 于 m 过 小 ， 所 以 可 以 忽略 )。 


复杂 度 为 O(m?) ， 所 以 该 阶段 
在 局 部 徐 合 并 阶段 ， 需 要 遍历 
更 新 数据 对 象 的 全 局 簇 标 志 ， 
SFSDP 算法 最 后 总 的 时 
到 计算 节点 间 的 通信 和 数据 传 
时 间 复 杂 度 会 略 大 于 这 里 给 出 


T - O(n[|M) - O(n*m)/M) 4 O(n|M) 


2) 空间 复杂 度 分 析 
假设 待 聚 类 数据 集 包含 n 
集中 每 一 对 数据 对 象 之 间 的 距 
复杂 度 为 O(n?) 。 而 在 SFSDP 


pau 


分 
因此 ，SFSDP 聚 类 算法 对 每 
O(m?) 。 


4 ”仿真 实验 


4.1 实验 环境 搭建 


本 实验 通过 配置 五 台 普 通 机 器 搭建 Spark 
为 Intel Core i5 2.7 GHz 4 核 CPU，8 GB 内 


计算 机 的 硬件 配 
ff, 512GB 硬盘 。 软 件 环境 为 
算 节 点 通过 于 兆 以 太 网 交换 机 


据 对 象 的 数量 最 多 不 超过 m， 聚 类 算法 将 数据 
x 中 (这 里 是 理想 状态 , 实际 分 区 的 数量 会 大 于 等 于 


里 由 于 网 格 单元 的 扩展 点 数量 相 
在 每 个 分 区 上 执行 聚 类 的 时 间 
的 时 间 复 杂 度 为 O((m*nm)/M)，。 
数据 集 来 查找 局 部 艇 的 合并 点 和 
Rf TR] 2 Zi HE Jy O(n/ M) 。 所 以 


间 复 杂 度 计算 公式 如 式 C60 所 示 。 考虑 


输 需 要 额外 的 代价 ， 算 法 的 实际 
的 计算 。 
(6) 


个 数据 对 象 ， 由 于 需要 记录 数据 
离 ， 所 以 FSDP 聚 类 算法 的 空间 
中 ， 假 设 指定 每 个 网 格 单元 内 数 
划分 到 n/m 个 
n/m), 

个 计算 节点 的 存储 空间 要 求 为 
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42 ”算法 准确 性 对 比 实验 


= 


密度 峰值 聚 类 


算法 


为 了 验证 SFSDP 算法 的 准确 性 , 实验 选取 表 1 中 给 出 的 测 
试 数据 集 分 别 对 SFSDP 和 FSDP 算法 进行 聚 类 , 得 到 的 各 个 测 
试 数据 集 的 准确 性 对 比 实验 结果 如 表 2 所 示 。 

表 1 SFSDP 与 FSDP 算法 聚 类 ;准确 性 

数据 集 样本 数 属性 维度 类 别 个 数 
Spiral 312 2 3 
R15 600 2 15 
Aggregation 788 2 7 
D31 3100 2 31 
Tris 150 4 3 
Wine 178 13 3 
Glass 214 9 6 
Seeds 210 7 3 
WDBC 596 30 2 

3&2 FSDP 5 SFSDP 算法 聚 类 准确 性 
数据 集 FSDP SFSDP 
Spiral 1 í 

R15 99.66% 99.24% 
Aggregation 99.47% 94.52% 
D31 96.16% 92.31% 
Tris 87% 83.47% 
Wine 70.78% 65.39% 
Glass 57.34% 55.76% 
Seeds 88.57% 86.35% 
WDBC 57.471% 53.65% 

由 表 2 可 以 看 出 ，SFSDP 算法 的 聚 类 准确 性 相 比 于 原始 
FSDP 聚 类 算法 略 低 。 经 过 分 析 得 知 其 主要 原因 有 两 个 : a) 在 计 
算 分 区 内 扩展 点 的 局 部 密度 时 ， 由 于 其 密度 截 距 范 围 内 有 一 部 
分 邻近 对 象 不 在 同一 个 分 区 中 ， 导 致 扩展 点 的 局 部 密度 计算 偏 
小 ， 可 能 致使 扩展 点 被 误 判 成 光 晕 成 员 ; b) 由 于 在 分 区 内 判断 
数据 对 象 的 最 小 距离 ， 对 于 有 些 边界 点 ， 其 全 局 高 密度 最 邻近 
数据 点 可 能 出 现在 相 邻 分 区 中 ， 导 致 数据 点 划分 出 错 。 


43 算法 性 能 对 比 实验 
为 了 度量 SFSDP 算法 与 FSDP 算法 之 间 的 性 能 差距 , 实验 


从 香港 科技 大 学 智能 城 
获取 实验 测试 数据 集 。 
租车 的 行驶 数据 。 通 


的 数据 文件 。 
个 数 : 


市 而 
该 测 


试 数据 集 信息 


过 对 原始 文件 处 理 ， 得 到 只 含 


RHH Chttp://www.cse.ust.hk/scrg/ 
包含 了 4000 多 辆 出 


了 车 辆 坐标 


从 生成 的 坐标 文件 中 随机 选取 4 
居 样 本 DI (1 千 个 坐标 点 )、D2 (2 千 个 坐标 点 )、D3 (5 
于 个 坐标 点 入 DA (1 万 个 坐标 点 )、D5 (2 万 个 
算法 和 FSDP 算法 在 上 述 五 个 测试 外 


群 ， 其 中 每 台 


CentOS 6.5 操作 系统 。 所 有 的 计 
互 连 。Spark 版 本 为 2.3.0. 


果 如 图 2 所 示 。 
从 图 2 可 以 看 


N 


成 大 小 不 一 的 五 


标点 )。SFSDP 
站 上 执行 的 性 能 对 比 实验 结 


H, FSDP 算法 由 于 无 须 对 数据 集 进行 分 区 


和 进行 计算 了 


点 间 的 通信 ， 在 数据 规模 较 小 时 算法 用 四 


TOS 


但 当 数 据 规模 快速 增长 时 ，FSDP 算法 运行 的 时 间 会 快速 增长 ， 
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在 数据 规模 达到 20 000 时 ，FSDP 算法 
聚 类 分 析 ， 因 此 算法 的 伸缩 性 较 差 。 


P2 


的 时 间 ， 当 数据 规模 较 小 时 ， 数 据 肌 
时 间 比 重 较 高 ， 算 法 的 效率 劣 于 FSDP 算法 ; 


Yit 


于 SFSDP 算法 需要 在 数据 集 分 区 和 节点 间 通 信 上 
分 区 和 节点 间 通 信 所 


就 已 经 不 能 有 效 地 完成 
而 对 于 SFSDP 算法 来 说 ， 


花费 一 定 
5 的 
但 当 数 据 规模 上 


升 时 ， 随 着 数据 分 区 及 节点 间 通 信 时 间 比 重 的 下 降 ，SFSDP 算 


法 的 整体 花费 时 间 增 长 平缓 ， 因 此 算法 具有 较 强 伸缩 性 。 
160 —9—FSDP 一 和 一 SFSDP 
140 
- 120 
E 100 
E g 
ic 60 
1x) 
X 40 
20 
0 
D1 D2 D3 D4 D5 
测试 数据 集 
图 2 SFSDP 和 FSDP 算法 运行 的 时 间 对 比 
4.4 加 速 比 和 扩展 比分 析 
为 了 更 好 地 验证 SFSDP 算法 的 可 扩展 性 , 实验 从 车 辆 坐标 


am 


数据 文件 中 随机 选取 生成 五 个 测试 数据 集 :D1(1 万 个 坐标 点 入 


A S 


标点 ) 和 D5 (500 万 个 坐标 点 ) 数据 集 。 
下 对 各 个 测试 外 
展 比 。 实 验 结果 分 别 如 图 3 和 4 所 示 。 

从 轿 


mt 


3 可 以 看 出 ，SFSDP 算法 在 进行 聚 类 处 理 
点 数量 的 增加 , 加 速 比 也 随 之 增 大 。 但 对 于 小 规模 数据 集 D1 和 


D4 (200 万 个 坐 
过 在 不 同 数量 节点 


a em ni 


时 ， 随 着 节 


D2， 随 着 节点 的 增加 ， 加 速 比 1 
是 因为 D1 和 D2 的 数据 集 规模 较 小 ， 


oe 


群 用 于 计算 的 时 间 比 较 小 ， 而 用 于 
而 对 于 大 规模 数据 集 D3, D4, D5, 
在 图 


I 


节点 间 通 diei RA. 
Jae Ec E Bei ER t 
4 中 ， 随 着 集群 节点 个 数 的 增加 ， 算 法 在 各 个 数据 集 上 的 


生 增 加 。 


扩展 比 逐 渐 减 小 。 这 主要 是 因为 随 着 外 


7 


群 中 节点 个 数 的 增加 ， 


使 得 节点 之 间 的 通信 代价 增加 。 当 数据 规模 越 大 时 ，SFSDP 算 


法 的 扩展 比 越 高 ， 这 表明 算法 在 大 规模 数据 
扩展 性 。 


加 速 比 
N 


上 可 以 取得 较 好 的 


图 3 SFSDP 算法 在 不 同 规模 测试 集 上 的 加 速 比 
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果 表 明 ，SFSDP 算法 与 FSDP 算法 
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ER 聚 类 算法 
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E 


图 4 SFSDP 算法 在 不 同 规模 测试 集 上 的 扩展 比 


结束 语 


针对 FSDP 聚 类 算法 在 进行 海量 、 高 维度 数据 聚 类 时 存在 
率 低 、 伸 缩 性 差 的 问题 ， 为 了 适应 大 规模 数据 聚 类 分 析 ， 本 
提出 了 一 种 基于 Spark 的 并 行 FSDP 聚 类 算法 SFSDP。 算 法 
先 通过 将 海量 数据 集 在 空间 中 划分 成 多 个 数据 量 均衡 的 数据 
区 ; 然后 利用 多 个 计算 节点 在 各 个 划分 好 的 数据 分 区 上 并 行 
行 改进 后 的 FSDP 聚 类 算法 ， 得 到 各 个 数据 分 区 的 局 部 聚 类 
后 将 局 部 聚 类 的 结果 合并 生成 全 局 聚 类 簇 集 。 实 验 结 
相 比 ， 算 法 在 保证 准确 率 的 
具备 较 强 的 可 扩展 性 ， 能 够 有 效 处 理 大 规模 数据 集 的 


? 
Psi 
Tt 
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